從原始資料到有意義的特徵
課程中開宗明義提及的範例,是如何去預測房價。
這邊推薦大家可以去看台大資工系林軒田教授的機器學習基石系列。
為什麼會選擇某些特定的特徵來求得預測結果呢?而且是選擇採用機器學習?
可能有一個重大的前提,那就是要相信收集到的資料與預測結果有某種關係。
比如說:
- 親代的拇指彎曲,子代拇指彎曲的比例就會相當高,而呈現直挺的狀況比例較少。
- 暴露在PM2.5濃度高的環境下的人群,似乎會有較高比例的呼吸道疾病發生。
以上這些就是觀察 + 收集資料步驟要做的事情;而我們常用的方法就是Exploratory Data Analysis(EDA)。
透過圖表(散布圖/累計圖/直方圖)等,將這層關聯特性確立,然後就開始尋找所謂的特徵了。
什麼叫好的特徵
這裡用我個人的詮釋:
- 可以透過實驗或日常生活觀察所得到之預測行為。
常常有民間傳說或地下街會出現的算命,到底算不算符合這個項目呢?
我想如果沒有辦法讓其他人在能明確重現的狀況下,無法達成這個條件。
- 這就是所謂的時序因果律(Time-Series Causality)。
人只有活在當下才能做決定,如果能像守護者裡面的曼哈頓博士一樣,就只是做出選擇罷了。
當有預測的行為,就必須明確知道何者為因何者為果。
- 數字型資料有利於模型的殘差分析。而三一律的大小關係有利於看出整體的趨勢變化。
- 資料為本。有資料為預測,無資料為預言。
- 不聽老人言,吃虧在眼前。